Pi 


第 3 重 


CPU の 商人 区 セ ッ ト を 


撤 張 し て 高 避 作 


PLD 内 蔵 CPU TS5000」 の ア 


活用 事例 


ここ で は , 米国 Stretch 社 の プロ セッ サ 「S5000」 を 取り 上 げ 
る . この プロ セッ サ は , 内 部 に プロ グラ マブ ル ・ ロ ジッ ク を 指 
載 し , ユー ザ が 命令 セッ ト を 拡張 で きる 特徴 を 持つ . ソフ トウ 
エア で 時 間 を 要する 処理 を , 専用 命令 に する こと で 処理 の 高速 
化 を 実現 する . 本 稿 で は , プロ セッ サ の 呈 本 アー キテ クチ ャ を 
説明 し た 後 , 画像 処理 アプ リケーション に お ける 適用 事例 を 紹 
介する . (編集 部 ) 


シス テム 設計 に お いて , マイ クロ プロ セッ サ は 重要 な 要 
素 の 一 つ で す . 近年 , シス テム の 高 機能 化 の 要求 が 高まる 
に 従っ て , マイ クロ プロ セッ サ に も 高い 処理 能力 が 求め ら 
る よう に な り ま し た . そし て , クロ ッ ク 周波 数 を 上 げ る だ 
け で は 対応 で き な い ケー ス も 増え て いま す . 

高い 演算 処理 性 能 と 制御 性 能 が 求め られ る シス テム の 設 
計 手法 の 例 を 図 1 に 示し ます . 

まず , FPGA field programmable gate array ) に CPU 
コア を 組み 込む お アプ ロー チ が あり ます . FPGA の 中 で , ス 
テー ト ・ マ シン や 全体 の 制御 用 に CPU を 積極 的 に 利用 し ま 
す . 処理 性 能 が 求め られ る こと が 多い 演算 処理 は , FPGA 


CPU コア 凶 
cpu ハー ド ・ マ クロ また は 
ソフ ト ・ マ クロ 図 


( a) プロ セッ サ 内 蔵 FPGA 
図 1 演算 処理 能力 と 制御 性 能 を 両立 させ る 手法 


PLD 拡張 命令 処理 用 図 
プロ グラ マブ ル ・ ロ ジッ ク 


( b) プロ グラ マブ ル ・ ロ ジッ ク 内 蔵 RISC プ ロ セ ッ サ 凶 (<c) DSP 命 令 付き RISC プ ロ セ ッ サ [【 


ー キ テク チャ と 
松 添 信宏 , 永 嘩 議 


の 論理 ブロ ッ ク を 使っ て ハー ド ウェ ア 化 し ます . 

似 た アプ ロー チ と し て , CPU の 内 部 に プロ グラ マブ ル ・ 
ロジ ッ ク を 組み 込ん だ 製品 が あり ます . 単に CPU と プロ グ 
ラマ ブル ・ ロジック が 1 チッ プ 化 され た だ け で は な く , CPU 
の 命令 セッ ト を ユー ザ が 独自 に 拡張 する し くみ を 備え て い 
ます . プロ グラ マブ ル ・ ロ ジッ ク に より 拡張 命令 を 処理 し 
ます 。 こ うす る こと で 。 ア プリ ケー ショ ン に 通し た オリ ジ 
0 の の ピロ 設計 で きる よう に な り ま す . 

演算 処理 能力 と 制御 性 能 の 両立 を 目ざし た 製品 と し て は , 
DSER digital signal processing) 命令 付き RISC プ ロ セ ッ サ 
や RISC 命 令 付き DSP が あり ます . し か し , これ ら は メー 
カカ が あら か じ め 用 意 し た 固定 の 命令 セッ ト を 使う た め , ア 
プリ ケー ショ ン を 選ぶ 場 合 が あり ます . 

本 稿 で 取り 上げる 米国 Stretch 社 の S5000」 は , 32 ビ ッ 
ト RISC プ ロ セ ッ サ に プロ グラ マブ ル ・ ロ ジッ ク を 内 蔵 し 
だ アト クエ ど (コン フィ ギャラ アル ジロ ルッ サ で す , 
S5000 プ ロ セ ッ サ に 内 蔵 さ れる プロ グラ マブ ル ・ ロ ジッ ク 
は , CPU の 拡張 命令 を 実行 する た め だ け に 使わ れ ま す . 

れ が CPU コア を 内 蔵 し た FPGA と S5000 プ ロ セ ッ サ の 大 


CPU+ DSP 


( a) の 構成 は , 高い 性 能 が 得 ら れる 反面 , LSI 設 計 と ソフ トウ ェ ア 開 発 の 両方 の スキ ル が 求め られ る. ( b) の 構成 で は , プロ グラ マブ ル ・ ロ ジッ ク は CPU の 拡張 


命令 を 処理 する た め に の み 使 われ る . この た め , 汎用 プロ セッ サ に 近い 感覚 で 使 


か は アプ リケーション し だ い . 


用 で きる .( c) の 構成 は , 命令 セッ ト が 決ま っ て いる の で , 性 能 が 上 が る か どう 


OFrd  S5000, FPGA, CPU コア , 拡張 命令 , DSP, RISC, Stretch, IDE, ビル ド , 色 空 間 変換 , パイ プラ イン 
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き な 違 いで す . 

内 蔵 の プロ グラ マブ ル ・ ロ ジッ ク の リソー ス が 限ら れ て 
いる 以上 , 実現 可能 な 性 能 で は FPGA を 超え る こと は あり 
ませ ん . 汎用 プロ セッ サ に 近い 感覚 で 使う こと が で き , 負 
荷 の 重い 演算 処理 を ハード ウェ ア 化 する し くみ を 用 意 する 
こと で , 性 能 向上 と 開発 期間 の 短縮 の 両方 を 実現 で きる こ 
と が メリ ッ ト と いえ まず 図 22. プロ グラ マブ ル ・ ロ ジッ 
ク の 回 路 の 記述 は C 言 語 を ベー ス と する 言語 で 記述 が で き 
る た め , VHDL や Verilog HDL な どの ハー ドウ ェ ア 記 述 言 
語 に 関す る 知識 が 不要 で す . 


ーー 
1.S5000 プロ セッ サ の アー キテ クチ ャ 


S5000 プ ロ セ ッ サ の 中 核 と な る CPU ブロ ッ グ 「 S5 エ ンジ 
ン 」 の ブロ ッ ク 図 を 図 3 に 示し ます . 

ベー ス と な る CPU コア は , 米国 Tensilica 社 の Xtensa- 
V」 で す . 32 ビ ッ ト の RISC ア ー キ テク チャ で , 最大 300 


開発 の 容易 さ E 


図 2 性 能 と 開発 期間 の トレ ー ド オフ 

シス テム 設計 者 は デバ イス の 性 能 以外 に , アプ リケーション の 開発 期間 TAT) 
を 考慮 する 必要 が ある . この 開発 期間 に は 所 望 の 動作 ・ 性 能 を 達成 させ る ま 
で の 最適 化 作業 や 検証 ・ デ バッ グ 期 間 が 含ま れる . S5000 プ ロ セ ッ サ は , 汎 
用 プロ セッ サ 並 み の 開発 期間 で ASICFPGA レ ベル の 性 能 を 出す こと を 目的 
と し て いる . 


Xtensa-V 較 
300MHz 凶 
32 ピ ビット RISC 


図 3 

S5 エ ンジ ン の ブロ ッ ク 図 

S5 エ ンジ ン は 大 きく 分 け て 三 つ 
の 要素 で 構成 され て いる . 三 つ 
の 要素 と は , すなわち , Xtensa- 
V プ ロ セ ッ サ ・ コ ア , 128 ビ ッ ト 
の ワイ ド ・ レ ジス タ ・ フ ァイル , 
プロ グラ マブ ル ・ ロジ ッ パ ISEF) 
で ある . 


御 還 


S5 エ ンジ ン 較 
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I/O 填 DMA 


命令 キャ ッシュ 限 | デ ー タ ・ キ ャ ッシュ 較 
32K バ イト 図 32K バ イト 図 
に 量 国 し 」 
32 ビ ッ ト ・ 図 128 ビ ッ ト ・ ワ イド ・ 図 
レジ スタ ・ 委 | レジ スタ ・ フ ァイル 較 
制御 


MHz で 動作 し ます . 命令 セッ ト は , 16 ビ ッ ト 長 ま た は 24 
ビッ ト 長 で 構成 され て いま す . 

S5000 プ ロ セ ッ サ に は , 搭載 する 周辺 回 路 の 違い に より い 
くつ か の 品種 が 存在 し ます が , S5 エ ンジ ン そ の も の は すべ 
て 共通 で す . 


⑱ プロ グラ マブ ル ・ ロ ジッ ク (ISEF) 

プロ グラ マブ ル ・ ロ ジッ ク 部 は ,「 ISER Instruction Set 
Extention Fabric : 命令 セッ ト 拡張 ファ ブリ ッ ク )」 と 呼ば 
れ て いま す . 図 4 の よう に , ISEF_A と ISEF_B の 二 つ の 
バン ク で 構成 され て いま す . 

ISEF は ユー ザ が 設計 し た カス タム 命令 を 実行 する ブロ 
ッ ク で す . Xtensa コ ア が 発行 する 拡張 命令 の 実行 回 路 と し 
て 使わ れ ま す . 

ISEF へ の デー タ 入出 力 は , レジ スタ 経由 で 行い ます . 
ISEF へ の デー タ 入力 は , Xtensa コ ア の AR レジ スタ 32 
ビッ ト 幅 ) か ら 2 系 統 と , ISEF 専用 の ワイ ド ・ レ ジス タ 

( 128 ビ ッ ト 幅 ) か ら 3 系 統 あ り , 同時 に 3 系 統 ま で 選択 で 
きま す . ISEF か ら の デー タ 出力 は 128 ビ ッ ト が 2 系 統 で す 
( 図 5). 

ー つ の ISEF は , 4096 個 の 算術 / 論 理 演算 終 AU) と 

8192 個 の 乗算 / シ フト 演算 器 MU), 4096 ビ ッ ト 幅 の 拡張 


ISER 命令 セッ ト 拡張 ファ ブリ ッ ク ) 図 


図 4 

ISEF の ブロ ッ ク 図 
ISEF_A と ISEF_B の 二 つ の 
バン ク で 構成 され る . 


ISEF_A IS 中 E 当 | 


SRAM 罰 デー タ ・ メ モリ 還 
256K バ イト 図 32K バ イト 図 


16 レ ジス タ X2 バ ンク 


128 ビ ッ ト 幅 図 
ワイ ド ・ レ ジス タ 較 


/O 


ISEF 図 
プロ セッ サ 内 の 罰 
プロ グラ マブ ル ・ 


1__ | 
ALU 図 
FPU 


ジッ ク + デー タ 
パス 図 


ISEF 図 
( 命令 セッ ト 拡張 ファ ブリ ッ ク ) 
し | 


FPGA 十 CP り で ーー デ 


- ア クセ ラレー ショ ン 過 “ ヨ 2 特集 


レジ スタ を 持ち ます . 拡張 レジ スタ は , 演算 結果 の 保持 に する 前 に API を 用 いて , コン フィ グレ ーション を プリ ロー 
使い ます . CO 演算 子 に 対す る リソー ス 使 用 の 目安 は 表 1 の ド し ます . これ に より , 書き 換え 時 間 の オー バ ヘ ッ ド を 短 
よう に な り ま す . 一 つの ISEF で , 最大 32 個 の 16 ビッ ト ※ 縮 で きま す . 
16 ビ ッ ト 乗算 器 ま た は , 128 個 の 32 ビッ ト ALU ある い は ISEF の 書き 換え に は , 130xs^ 150xs 程 度 の 時 間 が 必 
最大 256 個 の 16 ビ ッ ト ALU) を 実装 で きま す . 要 で す . ISEF_A と ISEF_B が と も に コン フィ グレ ー シ ョ 
ー つ の ISEF の コン フィ グレ ーション で , 最大 16 個 の 拡 ン さ れ て いる 場合 , 実行 し よう と する 拡張 命令 に 合わ せ て 
張 命 令 を 実装 で きま す . そし て , 一 つの 実行 ファ イル オー バ ヘ ッ ド な し で 選択 し て 実行 で きま す . また , 一 方 の 
( S5000 の ROM イ メー ジ ) に 20 セ ッ ト の コン フィ グレ ー ゴン ツラ フィ グレ ーション で アプ リケーション を 実行 し て いる 
ショ ン を リン ク で きま す . 間 に , も う 一 方 を 書き 換え られ ます . 
ISEF の 書き 換え は , 例え ば , 次 の よう に 四 つ の 処理 が 別々 の コン フィ グレ ー 
e オ ー ト ・ コ ン フ ィ グ レー ショ ン ショ ン を 必要 と する と し ます . 
ee マニュアル ・ コ ン フ ィ グ レー ショ ン e 処 理 1: Conf1 に ある 拡張 命令 を 使用 
の 二 つ の 方 法 が あり ます . e 処理 2: Conf2 に ある 拡張 命令 を 使用 
オー ト ・ コ ン フ ィ グ レー ショ ン で は , 拡張 命令 を 実行 す e 処理 3: Conf3 に ある 拡張 命令 を 使用 
る と き , ER ン フ ィ グ レー ショ ン が ISEF_A, e 処理 4: Conf4 に ある 拡張 命令 を 使用 
また は ISEF_B に な い 場 合 に か ぎり , 自動 的 に 書き 換え を 二 つ の ISEF バン ク に 対し て 四 つ の コン フィ グレ ー シ ョ 
行い ます . ン が 必要 と な り ま す . この よう な 場合 , 図 6 の よう に , あ 
マニ ュ ア ル ・ コ ン フ ィ グ レー ショ ン は , 拡張 命令 を 使用 る 処理 を 実行 中 に 次 の 処理 で 使用 する コン フィ グレ ー シ ョ 


ン を バッ ク グ ラウ ンド で 書き 込ん で お く こ と が で きま す . 


表 1 C 演 算 子 に 対す る リソー ス 使 用 の 目安 


⑯ ワイ ド ・ レ ジス タ (WR) 
ISEF へ の デー タ 入出 力 専 用 に は , 128 ビ ッ ト 幅 の ワイ 


C 演 算 子 AU 
A( 寺 , -)B |maxX IAI, IBD 
A( &, ^, DB | mi IAI IBD 
A*B IAIYIBI 


A( <<, >>) B 
( B は 変数 ) 
A( <<, >>) B 
( B は 定数 ) 


IAI*2IBI Conf1 を ISEF_A へ 図 


コン フィ グレ ーション 上 


了 / 
M 
ezl 


0 


ISEF_A ISEF_B 


Conf2 を ISEF_B へ 図 
書き 込み 図 


処理 1 図 
Conf1 を 使用 し て 実行 呈 


Conf2 を 使用 し て 実行 書き 込み 図 


Conf4 を ISEF_B へ 図 
書き 込み 図 


処理 3 図 
Conf3 を 使用 し て 実行 叶 


処理 2 凶 1 Conf3 を ISEF_A へ 凶 


ISEF 図 
( 命令 セッ ト 拡張 ファ ブリ ッ ク ) 氏 


[ 処理 4 } Conf1 を ISEF_A へ 凶 還 還 革 7 
! 行 団 重 書 き 込 
(ロト ココ ーー ビー スー ビデ ご コジ ニー ビニ スス で ーー Conf4 を 使用 し て 実行 了 み 図 較 rmecg 
図 5 ISEF の デー タ 入 出力 
ISEF へ の デー タ 入 力 は , Xtensa コ ア の AR レジ スタ ( 32 ビ ピット ー ーー ーー 
幅 ) か ら 2 系 統 と , ISEF 専用 の ワイ ド ・ レ ジス タ ( 128 ビ ッ ト 幅 ) 図 6 二 つ の ISEF バン ク に 対す る コン フィ グレ ーション 
か ら 3 系 純 あ り , 同時 に 3 系 続 まで 選択 で きる . ISEF か ら の デー ある 処理 を 実行 中 に 次 の 処理 で 使用 する コン フィ グレ ーション を バッ ク グ ラウ ンド で 
97004 書き 込ん で お く こ と が で きる . 
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書き 込み 図 
Port 0 


128 ビ ッ ト 較 


128 ビ ッ ト 図 


読み 出し 凶 。 読み 出し 図 読み 出し 図 
Port 0 Port 1 Port 2 


図 7 ワイ ド ・ レ ジス タ ( WR) の 構成 
WRA と WRB の 2 バン ク 構 成 に な か っ て いる . 


図 8 

ロー ド / ス ト ア 命令 の 動作 

ロー ド スト ア 命 令 に は , Aligned 
ロー ド メト ア 命 令 と Unaligned ロ 
ー ド カト ア 命 令 が あり , 転送 デー 
タ の 大 き さ に よっ て 使い 分 ける . 
Aligned ロ ー ド ストア 命令 を 使う 
場合 , WM ビッ ト の ロー ド カト ア 命 
令 に は WM ビ ッ ト で アラ イン され た 
アド レス で な けれ ば な ら ない. 画 
像 デー タ の よう な 2 の 乗数 で は な 
い デ ー タ を 扱う 場合 は , Unali 
gned ロ ー ド スト ア 命 令 が 有効 . 


ド ・ レ ジス % 作 WR)」 を 使用 し ます . 内 部 の 300MHz, 128 
ビッ ト ・ バ ス へ 接続 され て お り , メモ リ -ISEF 間 の デー タ 
の や り と り に 必要 な デー タ 転送 帯域 を 持ち し ます. 128 ビ ッ 
ト 幅 の た め , 8 ビッ ト 長 の デー タ で あれ ば , 16 個 の デー タ 
を 1 サイ クル で ロー ド / ス ト ア で きま す . また , ピク セル 当 
た り 3 バイ ト の 画像 デー タ や 12 個 の 10 ビ ッ ト ・ デ ー タ の 
よう な , デー タ 幅 が 2 の べき 乗 で な い デ ー タ を 扱え ます . 

ワイ ド ・ レ ジス タ は , 内 部 で WRA と WRB の 2 バン ク 
構成 に な っ て いま す . WRA と WRB は , それ ぞ れ 16 本 の 
レジ スタ を 持ち ます . ワイ ド ・ レ ジス タ か ら の デー タ 出力 
は , Port 0 Port 2 まで 3 系 統 用 意 さ れ て お り , 出力 ステ 
ー ジ に ある デー タ ・ セ レク タ で 任意 の ワイ ド ・ レ ジス タ ・ 
バン ク を 選択 し まず 図 7). 

ワイ ド ・ レ ジス タ と メモ リ の デー タ の 受け 渡し は , あら 
か じ め 用 意 さ れ て いる ロー ド / ス ト ア 命令 を 使い ます . ロ 
ー ド / ス ト ア 命 令 は , 最大 128 ビ ッ ト の デー タ ・ サ イズ に 対 


デー タ ・ メ モリ 図 ワイ ド ・ レ ジス タ 図 


WRL128K &u, p1, 0) 全 一 


128 ビ ッ ト ( 16 バ イ 
ト ) を メモ リ か ら ワ 
イド ・ レ ジス 人 u) 
へ の ロー ド 較 


64 ビ ピッ ト ( 8 バイ ト ) 
を ワイ ド ・ レ ジス 


タ ( v) か ら メ モリ 
ヘス ト ア 較 


WRS64K v, p2, 0) 状 ー 


WRS64K &v, p3, 0) 義一 = 


| 


デー タ が 8 バイ ト で アラ 
イン され て いな いた め 
64 ビ ピッ ト ( 8 バイ ト ) ロ ー 
ド を 実行 する と 例外 が 
発生 較 


Aligned ロ ー ド / ス ト ア 図 
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WRGETOINIT INCR, p4) 


onmlkjihgfedcb 
WRGETO( &x, 2) 図 SB 隊 。 


bcdefgh76543210 
WRGETO【 &y, 4) 図 生ま 


WRGETO( &z, 5) 較 


GET 命 令 は 任意 
3) 康 の アド レス か ら 任 
意 の サイ ズ の バイ 
ト を ロー ド で きる 凶 


WRGETOI &x, 


PUT 命 令 に より 任 
意 の アド レス へ 任 
意 の サイ ズ の バイ 
ト を スト ア で きる 


WRPUTINITC INCR, p5) 
ュー WRPUTK y, 2) 


WRPUTK z, 2) 図 


WRPUTK y, 1) 図 


Unaligned ロ ー ド / ス ト ア 図 


FPGA 二 CPU で 幸三 ー 


アク セラ レー ショ ン 硬 呈 ヨ 2 特集 庄屋 


ーー 


応 し ます . また , アド レッ シン グ ・ モ ー ド を 選択 で きま す . グレ ーション 用 ビッ ト スト リー ム 生 成 も 行い まず 図 10). 
ロー ド / ス ト ア 命 令 に は , Aligned ロ ー ド / ス ト ア 命 令 と 1 選 ほ 。 ツー スズ 、 エモ デイ タ 。、C ヨ コン パイ ラ 。 リンカ, 
Unaligned ロ ー ド / ス ト ア 命 令 が あり , 転送 デー タ の 大 き さ バッ ガ , プロ ファ イラ , パイ プラ イン ・ ア ナラ イザ の 機能 
に よっ て 使い 分 け ま ず 図 8). 表 2 に それ ぞ れ の 命令 フォ で 構成 され ます . 

ー マ ッ ト を 示し ます . 


@ IDE に よる ソフ トウ ェ ア 開 発 フ ロー 
IDE に よる ソフ ト ウェ ア 開 発 フ ロー の 概要 を 図 11 に 示 

し ます 。、 こ と で は すでに RISC プロ セッ サ で 動作 する 
ソフ トウ ェ ア の 開発 に は , 統合 開発 環境 IDE) の C/C 寺 十 の アプ リケーション ・ コ ー ド の 開発 が 完了 し て い 

「 Stretch IDE」 を 利用 し まず 図 9). Stretch IDE は , プ る も の と し て 説明 を 進め ます . 

ロ セ ッ サ の 実行 ユー ド 生成 だ け で な く , ISEF の コン フィ アダ リ ケ ー ジ ョ ン ・ コー ド を コン パ バイル, お よび ビル ド 


ーーーー ニ ーー ぶ ゞ ば 


2.。 ソフ トウ ェ ア の 開発 フロ ー 


表 2 8 ペレ ー> サイ ズ ビッ ト ) アド レッ シン グ ・ モ ー ド 
ロー ド / ス ト ア 命令 【 即 値 オ フ セ ッ ト ) 

IU 即 値 オフ セッ ト / ポ スト ・ イ ンク リ メ ン ト ) 
XX レジ スタ ・ オ フ セ ッ ト ) 


128 
64 


XU レジ スタ ・ オ フ セ ッ ト / ポ スト ・ イ ンク リ メ ン ト ) 


CU サー キュ ラ ・ バ ッ フ ァ ) 
RU ビッ ト ・ リ バー ス ) 


( a) Aligned ロ ー ド / ス ト ア 命令 


8 


スト リー ム 番 号 0 
( GET の み ) アド レッ シン グ ・ モ ー ド 
= 【 即 値 パ イト ・ カウ ンタ ) 
記 XX レジ スタ ・ バ イト ・ カ ウン タ ) 

XX( レジ スタ 定義 個別 バイ ト ・ カ ウン タ ) 


オペ レー ショ ン 


ツー ル ・ バ ー 罰 

デバ ッ グ や プロ フ 
ァイル な ど で よ く 
使用 され る コマ ン 


委 DE - rb2ycc break] - C\Work\Tutori cc 
ミ Ele EdK Mew Project Buld Debug Brofle 5etngs Window Hehp | 違 X| 


メ ニュ MI 国選 当 | | 属 証 症 区 画 別 同 IgE 同 語 旧 二 是 eerioz ー ヨ 
三 ーー 
に E| egesilvcc 避 | 議 衣 明 


me し 上 
時 es oxpoooeseo 0e pec351s197ocee .9R00... 当 ド を 登録 凶 
に M E 遇 DxD0n08368 a9he758af5757d56 eu.Gu)V 


| Himc1ude "data.hr OxDo008370 2c 74 17 82 ab dd 52 87 , て YR 
OxDoo08378 sa 65 1 30 2d a4bE de ]e.0-mcp 
~」 Urales Yod rgb2yoo( OxD0n08380 86 0e 4e 99 37 2c7b3b NM.7.(z 
OxD0008388 93 95 18 a3 71 2b 4e 50 EdHMP 
OxD008390 b2 Be 7a aa 85 93 2473 .zm.8 


に] Ubrary Projedts gtgmed ohar と, sgmed char ロ 。 sogmed ohar D。 


| 隊 sgmed ohar *y,。 sgmed ohar *cb。 sigmed ohar *Cr) 
] ProRies Oxpoooe398 al25efopz954791a i*.)Ty. 

時 人 計 5ource Fles OxDn0083AO 63 16 e2b5 cl 0Ohpa69 c. ・Sp&.* ュ 
rwpnnnaaan 21n494rf aes7assm mix 国 


ゃ 29m 
ト 回 war In 3 補 ーー + 128 3768 上 | 
導 2 2B*r - 107*g - 213] 32768 E Memoy1 | nemoyz | 


gb2ycc_sefc 


Debug Viewer 較 


に と 1 
折 人 YekdhCFls ーー== 十 」 レ ン ス タ や メモ リ 
ーー rgb2yccrxc Yod rgb2yoo wrapper(int np, sgmed ohar *RGB, sigmed char *YCC) Sr し 3 の デバ ッ グ * ウ イ 

6 


ham |fomalvas [me | ンド ウ の 表示 図 


ycrli0o] Errori symbol no Unknown 


int imi 


Project Viewer 隊 
プロ ジェ クト / タ 
ー ゲ ッ ト の 表示 , 

お よび ファ イル の 
管理 図 


ロ z n < NLz n++)( 
1 くす 3 きす np: 1 ゴー 3)t 


int main() 

( 
sigmed char yCc[3 * NP]: 
nt 1, err= ロ ょ 


Source Viewer 較 | 
ファ イル 内 容 の 
表示 較 WW for (1 = ロ z 1 < 3 * NP: 1+1)( Locak | wath1 |Regctas1 | rsEFmf 


rgb2yoo wrapper(NP。 RGB。 yec) > 


CSrGng punror ー _ 
5 天 | Output viewer 図 
233 、 上 
inking. 標準 出力 の 表示 , 


お よび コン パイ ル 
結果 な どの 表示 図 


Bu11d succeeded. 


Buld 
| Ine 13 Col1 Break 用 | 


図 9 統合 開発 環境 Stretch IDE」 
Stretch IDE の 画面 を 示す . ソー ス ・ コ ー ド お よび メモ リ , プロ セッ サ ・ コ ア の レジ スタ 値 を 表示 させ て いる . 
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アプ リケーション ・ 園 
コー ド 較 


Y 


6 2 高速 化 さ れ た い 較 
シミ ュ レ ー タ 図 _ | 関数 を 拡張 命令 図 
実行 凶 と し て 書き 直す 図 
コン パイ ル 図 
Y 
シミ ュ レ ー タ 較 
実行 較 


実行 較 
で きた か ? 以 


77O 


目標 達成 か ? 鐘 > 


yeS 


図 11 ソフ トウ ェ ア 開 発 フ ロー の 概要 


プロ ファ イラ の 結果 か ら , ボトル ネッ ク と な っ て いる 演算 処理 を 見 つけ , そ 
れ を 関数 と し て 切り 出す . 


C/C++ 図 
アプ リケーション ・ コ ー ド 罰 C/C++ 
main ( ) { main ( ) { 
の の の の の の @@@ 


@@@@@ 貴 らら の の の の の の らら 6@@6@@@@ 
図 図 


図 
@@e@@@@@@@@@5 
KeEmnel (gz, VJ 5) 
らら @@@@@@ 口 
ee@@@ ら @@@@@@ 口 

中 


し ラム が 所 望 の 動作 を し て いる か を 確認 ・ 検 証し 
ます . ここ まで は 一 般 的 が ソフト ウェ ア 開 発 フ ロー と 同じ 


次 に 拡張 命令 を 設計 し , CPU 負荷 の 重い 処理 を ISEF に 
マッ ピン グ す る 作業 を 行い ます . CPU 負荷 を 計測 する ツー 
ル と し て , IDE に は プロ ファ イラ が 用 意 さ れ て いま す . プ 
ロフ ァ イ ラ の 結果 より ボ ト ルネ ッ ク と な っ て いる 演算 処理 
を 見 つけ , それ を 関数 と し て 切り 出し ます . そし て , その 
関数 を Stretch-C 言 語 に 適合 する よう ソー ス ・ コ ー ド に 修 
正 を 加え , 拡張 命令 に し ます . 


⑱ ビル ド ・ プ ロ セ ス 

CPU が 実行 する アプ リケーション ・ プ ログ ラム の ソー 
ス ・ コ ー ド は , C ソ ー ス ・ フ ァイル 7 拡 旧 子 .c) に 記述 し ま 
す . それ に 対し ISEF で 実行 する 拡張 命令 の ソー ス ・ コ ー 
ド は , XC フ ァイル 拡張 子 xc) に 記述 し ます . 

図 12 の よう に , Stretch-C コ ン パ イヌ SOCC) は , 拡張 命 
令 が 書か れ た XC フ ァイル か ら コ ン パ イル を 開始 し ます . 
そし て , 拡張 命令 を C と ソース ・ コ ー ド 内 で 使え る よう に , 
ヘッ ダ ・ フ ァイル Hibeih) を 生成 し ます . 同時 に ISEF コ 
ン フ ィ グ レー ショ ン 用 ビッ ト スト リー ム ・ デ ー 包 Hbeia) 
も 生成 し ます . 

拡張 命令 は Stretch-C 言 語 で 記述 し ます . 拡張 命令 の コ 
ン パ イル の 段階 で , 論理 合成 や 配置 配線 , タイ ミン グ 検 証 


実行 ファ イル 図 


Meet 本 
EE 32P ッ ・ 較 128 ビ ッ ト ・ ワ イド ・ 図 
eeeeeee ル ジ ヅ 2 タ ・ フ カイ ル M レジ スタ ・ フ ァイル 較 
e 時 制御 凶 7 2 0 昌 虹 沖 昌 
ー の ら の の の の の の の の | 
中 eeeeeeee@@6@ 紀 22 が 7( 才 悦 図 
① プ ログ ラ utesai ② プ ログ ラ ( 命令 セッ ト 拡張 ファ ブリ ッ ク ) 隊 
マ は プロ フ eeeeeeeee 攻 マ は 切り 出 ンジ ッ 
し | ] 82 し た 関数 を 人 2 
ポー ト を も 拡張 命令 と 
と に ボトル し て 書き 直 コンパ イラ に より ISEF 
ネッ ク と な す 図 ャ の コン フィ グレ ーション 
el ビッ トス トリ ー ム ・ フ ァ 
生成 さ 層 
RSAGa 関数 と し て (0 維人 
) 切り 出す 作 
業 を 行う 図 ISEF ビ ッ ト ス トリ ー ム 図 


図 10 IDE を 使っ た 開発 の 流れ 


プロ セッ サ の 実行 コー ド 生成 だ け で な く , ISEF の コン フィ グレ ーション 用 ビッ ト スト リー ム 生 成 も 行う . 
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が 自動 で 行わ れ ま す . 

次 に C CU UM リン カ は 
ISEF の コン フィ グレ ーション ・ デ ー タ と ソフ ト ウェ ア の 
オブ ジェ クト ・ コ ー ド を リ 2 つま り , ISEF の 
コン フィ グレ ーション ・ デ ー タ は, 実行 ファ イル に 埋め 込 
まれ る た め , 特別 な 管理 を 行う 必要 は あり ませ ん . 


人 @ 拡張 命令 を 作る 
拡張 命令 の 設計 に は 
言語 を 使用 し ます . 
拡張 命令 は SE_FUNC void 型 で 定義 し ます . 関数 名 が 
拡張 命令 名 と な り ま す . 関数 の 引き 数 は 入出 力 の レジ スタ 
を 指定 し , 関数 の 本 体 で は プロ グラ マブ ル ・ ロ ジッ ク に よ 
る 回 路 構成 を 定義 し まず 図 13). 
コン パイ ラ は Stretch-C で 定義 され た 演算 を 実行 する た 


C 言 語 を ベー ス と し た Stretch-C 


<stretch.t> fr8.xc Stretch- C 図 


コン バイ ラ 較 「 抜 随 命 信用 の 較 
1 ヘッ ダ ・ フ ァイル 績 


fir8.c 図 


las sc 


fir8.o 図 


fir8.exe 図 


図 12 ビル ド ・ プロセス 


ISEF の コン フィ グレ ーション ・ デ ー タ は, 実行 ファ イル に 埋め 込ま れる . 


libeia 


| ISEF コ ン フ ィ グ 図 
| レー ショ ン 用 デー 


コン パイ ル 凶 


SE FUNC 
Yo1d mu] add(WR 
( 
に 】SYohelB 識 3 
Short 


She 


上 
図 13 
拡張 命令 の 記述 記 
拡張 命令 は SE_FUNC void 型 で 定義 する . 


XXx, WR yy, WR *z) 


FPGA 十 CP り で ン 特集 


- ア クセ ラレー ショ ン ピヨ ヲ 
の デー- 


め の ISEF コン フィ グレ ーション を 生成 し ます . この と き , 
レイ テン シ を 最小 限 可能 な 限り 並列 化 ) に し , プロ グラ マ 
ブル ・ ロ ジッ ク の 使用 率 を 最小 限 注 1 に し ます . 

Stretch-C 言語 で サポ ー ト され て いる デー タ 型 を 表 3 に 示 
し ます . 浮動 小数 点 の デー タ 型 は あり ませ ん . これ は , プ 
ログ ラマ ブル ・ ロ ジッ ク 内 で 浮動 小数 点 演算 を サポ ー ト を 
し な いた めで す . 

Stretch-C 言 語 で は , 除算 /) と モジ ュ ロ %: 剰余 ) を 除 
く 言語 の 演算 子 を サポ ー ト し ます . た だ し , コン パイ ル 
時 に 値 が 決定 され て いる 場合 に は , 除算 と モジ ュ ロ も 使用 
で きま す . 

また , ビッ ト 連結 の 演算 素 図 14) と ビッ ト 抽出 の 演算 
図 15) を 拡張 命令 と し て 使用 で きま す . プロ ッ セ ッ サ 
で 実装 され た これ ら の 演算 は , マス ク , シフ ト , AND, 
OR 命令 の 組み 合わ せ に より 処理 し ます . 拡張 命令 は ISEF 
で 処理 され る ので, 配線 だ け で 実現 で きま す . 


ーー 
3. 双 空 間 変 換 を 拡張 命令 で 実現 する ー 


RGB か ら YOCbCr へ の 色 空 間 変換 方 程 式 を 題材 に 
空間 変換 を 拡張 命令 と し て ISEF へ 実装 し , 2 
ョ ン の 高速 化 を 図り ます . 


@⑯ RGB か ら YCbCr へ の 色 空 間 変換 方 程 式 

R, G  B, Y, Cb, Cr の デー タ が それ ぞ れ 1 バイ ト ( 8 
ビッ ト ) の と き , 固定 小数 点 に よる RGB 色 空 間 か ら YCbCr 
色 空 間 へ の 変換 は 


注 1: ISEF の 最適 化 オ プシ ョ ン は effort level0-10 で 指定 
デフ ォ ル ト は 4 を 指定 し て いる . 


する こと が で き , 


4 YY レイ 4 


表 3 本 標準 整数 デー タ 型 符号 付き / な し ) char, shorE, in 上 , 1ong, 1ong 1ong な ど 
Stretch-C 言 語 で サポ ー ト され て い ワイ ド ・ レ ジス タ ・ データ 青 128 ビ ピッ ト 符号 な し ) | wR, wRa, wRg 
人 デ ーー 任意 の サイ ズ の 整数 デー タ 蘭 符号 付き / な し ) Be_u1n ヒ <m>, ge 81n<n メ た だ し n, m は 任意 の 整数 ) 
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ーー テー 


アー 77 が 十 150C 十 29g) >>8 
Cp ユー43R- 85C 十 128g 十 32768) >> 8 
C 式 128A- 107C - 21g 十 32768) >> 8 


と な り ま す . すなわち , 1 画素 を RGB か ら YCbCr に 変換 
ROOT 
シフ ト に な り ま す . 

リス ト 1 は , C 言 語 で 記述 し た 色 空 間 変換 プロ グラ ム で 
す . 関数 rgb2ycc は , 色 空 間 変 換 処理 で す . RGB 入力 デ 
ー タ ェ , g, b を 人 色 空 間 変換 し , YCbCr デー タッ , cb, cr 
を ポイ ンタ で 渡し ます . 関数 rgp2ycc wrapper は , 処 
理 を 行う 画素 の 数 だ け rgb2yco 関数 を 呼び 出す ラッ パ 関 
数 で す . 


人 @ 拡張 命令 の 設計 
拡張 命令 を 設計 する 際 に は , 以下 の 点 に 着目 し ます . 
e 複雑 な 演算 を 単 一 の 拡張 命令 に 実装 する 
e 128 ビ ッ ト 幅 の ワイ ド ・ レ ジス タ を 効果 的 6 00 
ここ で は , 色 空 間 変 換 方 程 式 を 単 一 命令 に 実装 し ます . 
ワイ ド ・ レ ジス タ を 効果 的 に 使う た め , 5 0 処 


Se 8S1m キ <12> x, 2: 
Se _S1nt<8> 


re8u] 七 


14 ビッ ト 連結 の 演算 子 
result ニ ( z, y, x) : の と き , w の デー タ 長 は x, y, z の デー タ 長 の 合計 と 


な る . 


リス ト 1 
色 空 間 変換 関数 


vo1d rgb2yoo( 


理 で きる と 考え られ ます . 1 画素 の RGB データ 24 ビ ッ ト , 
YOCbCr デー タ も 24 ビ ッ ト で す . し た が っ て , 128 ビ ッ ト 
の ワイ ド ・ レ ジス タ で は , 5 画素 120 ビ ッ ト ) を 一 度 に ロ 
ー ド / ス ト ア で きま す . つま り , 「 5 並列 の 色 空 間 変換 命令 
を 設計 で きる 」 と 考え られ ます . 

5 並列 色 空間 変換 処理 の 拡張 命令 は , 
な り ま す . 

rgb2yoo 関数 は , 1 画素 の 色 空 間 変 換 を 行う 関数 で す . 
入力 は 1 画素 分 デー タ で R, G_ B そ れ ぞ れ 8 ビ ッ ト で す . 
出力 は 1 画素 変換 後 の YCbCr デー タ で す . 符号 な し の 24 
ビッ ト 長 に まとめ る の で , 関数 型 は static se_ uint 
<24> で 定義 し ます . 色 空 間 変換 の 式 は , 基本 的 に は オリ 
ジ ナ ル と 同じ も の を 使用 で きま す . ここ で は , リス ト 2 の 
処理 か ら , 出力 側 を ポイ ンタ か ら 変 数 に 変更 し て いま す . 

rgb2yoo5 関数 は , 5 画素 並列 に 色 空間 変換 処理 を 行う 
拡張 命令 で す . 最初 の For ル ー プ で は , ワイ ド ・ レ ジス タ 
A に パッ ク さ れ て いる 5 画素 分 の RGB デー タ を 画素 ご と に 
R, G B に 分 割 し ます . 次 の Eor ル ー プ で は , 色 空 間 変 
換 関数 rgbp2ycc を 呼び 出し ます . 拡張 命令 で は , For 文 


リス ト 2 の よう に 


Se _S1nt<32> メ , 


31 2019 8 7 0 


31 12 11 0 
図 15 ピット 抽出 の 演算 子 
y ニ X 19, 8) : の と き , y に は x の 8 か ら 19 ビ ッ ト まで が 


LSB か ら 埋め られ , MSB 側 は 0 で 埋め られ る . 


81gned char て , signed char 9, signed ohar D, 
81gned ohar *y, 81qneQd char *ob, 81qneQ Char *C) 


{ 
* ア 記 
*CD = (-43* エ ー 


) 


( 77* エ + 150*d + 29*b 
85*d + 128*Db + 32768) >> 8: 
(128* 了 エ - 107*q - 


) >> 8: 


21*D + 32768) >> 8: 


Yo1d rgb2Yoo_wrapper(s1gned Char *RGB, s1gned ohar *YCC) 


( 


すさ mE 革 / 怠 が 


For (n = 0: n < NUM: n ロ ++ 
1 < NP*3: 
RGB [1+1] , 


正 G、 (直紀 0y 
rgb2yoo (RGB [1] , 
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) ( 
ュ ォ = 3) { 


RGB [1+2] , &YCC[i] , gYCC[i+1] , gYCC [1+21 ) : 


で 記述 し て いて も ソフ ト ウェア 処理 の よう に 逐次 処理 され 
る わけ で は あり ませ ん . コン パイ ラ が 依存 関係 を 考慮 し , 
並列 処理 可能 な よう に ISEF へ 実装 し ます . 


人 @ アプ リケーション ・ コ ー ド へ の 実装 
拡張 命令 gb2ycc5s を アプ リケーション ・ コ ー ド 上 に 実 
装 す る に は , デー タ の ロー ド / ス ト ア も 考慮 する 必要 が あ 
り ま す . 5 画素 分 の デー タ は 120 ビ ッ ト の た め , バイ ト 境 
界 を 基準 と する Alisned ロ ー ド / ス ト アア 命令 を 使用 する こ 
と で きま せん . リス ト 3 の よう に , Unaligned ロ ー ド / ス ト 
ア 命令 の GET/PUT を 使用 し , rgb2yco wrapper 関数 を 
変更 し ます . 
まず , WRGET01TNIT と WRPUTTNIT に より , GET/ 
PUT 命令 の スト リー ム ・ デ ー タ を アク セス する た め の ア ド 
レス を 初期 化し ます . 
次 の Eor ルー プ で は , 
e NRGETOT 命令 で ご ワイド ・ デ ー タ A に 15 バ イト 分 を ロー ド 
e rgb2yooc5 谷 令 で 5 並列 色 空 間 変 換 
e RPUTT 命令 で ご ワイド ・ レ ジス タ B か ら 15 バ イト 分 を ス 
ト ア 
を 行い ます . rgb2yco5 拡張 命令 は 5 並列 の 処理 を 行う た 
め , For ル ー プ の 回 数 は オリ ジ ナ ル と 比べ て 1/5 に な り ま 
す . WRGET01 命令 と WRPUTT 命令 は 1 サイ クル で 処理 され 


リス ト 2 5 並列 色 空間 変換 の た め の 拡 張 命令 


Btatio ge uin ヒ <24> 
rgb2yCC_1(ge 8g1n<8> エ , se Sin キ <8> d, Se gs1nt<8> ) 


Se_81nt<8> , CD, cr: 


Y = ( 77* エ + 150*d + 29*b ) pp 8 ヵ 
CD = (-43* エ - 85*q + 128*D + 32768) >> 8: 
Cr = (128* エ - 107*q - 21*Db + 32768) >> 8: 


reEurn (cr, CDb, ) : 


) 


SE_FUNC void rgb2yco5(WR A, WR *B) 
( 
Se Stnt<8> て [5] , g[5] , b[5] : 
Se_uin<24> CDor [5] : 
nt ュ 1: 


for (1 0: 1 < 5 1++) 人 


[1] = A(1*24+7, 1*24) : a 。 さき 、 に 
[1] = A(1*24+15, 1*24+8) : ワイ ド ・ レ ジス タ か ら 鐘 


b [1] = A(1*24+23, 1*24+16) : 5 画素 を 抽出 


5 画素 分 を まとめ る 陸 


for (1 = 0: 1 < 5: ュ ++) 人 
yobcr [1] = rgb2ycc_1( エ [は] は], b] ) 』 


) 


*B = (yobor [4] , yobcr [3] , ycbcr[2] , yobocr [1] , 
yobcr [0] ) , 


FPGA 十 CP り で ニニ ーー 


- ア クセ ラレー ショ ン 二 特集 中 
デー- 


ます . 
最後 に , 出力 スト リー ム を メモ リ へ フラ ッシュ し ます . 


@ ISEF の 使用 リソー ス を 調べ る 

拡張 命令 ファ イル xc を コン パイ ル す る と , 図 16 の よう 
な レポ ー ト ・ フ ァイル が 生成 され ます . 

レポ ー ト ・ フ ァイル に は , コン フィ グレ ーション 情報 や 
拡張 命令 の 情報 , サイ クル 情報 が レポ ー ト され ます . リ ソ 
ー ス 情報 に は , 使用 リソー ス の 合計 が , 関数 ご と , ソー 
ス ・ ラ イン ご と に レポ ー ト され, サイ クル 情報 と し て は 命 
令 の レイ テン シ や 拡張 レジ スタ の レイ テン シ が レ ポー ト さ 
れ ま す . 

INST RUCTION 以 下 で は , 拡張 命令 の 情報 が 提供 され 
ます . 使用 され て いる in, out と in/out 変数 WR や AR) 
が どの 実行 ステ ー ジ 」 で 入出 力 さ れる か , 使用 され て いる 
拡張 レジ スタ ( state) が ガ が どの 実行 ステ ー ジ 」 で 入出 力 さ れ 
る か が レ ポー ト され ます . また , 拡張 レジ スタ に 関し て は 
リー ド / ラ イト 間 の レイ テン シ 情 報 も レポ ー ト され ます . 
16 で は , 拡張 命令 rgb2ycc5 は , A が 入力 , B が 出力 で , 
実行 ステ ー ジ の サイ クル 1 の 始め で WRA か ら 入力 デー タ 
を 読み 出し , 実行 ステ ー ジ 2 の 終り で WRB へ 出力 デー タ 
を 書き 込む こと を 示し て いま す . し た が っ て , rgb2ycc5 
拡張 命令 は 2 サイ クル 命令 で S5000 コ ア を 基準 に する と 
6 サイ クル 命令 注 ?). 

Computational Resources は , コン パイ ル 初 期 ス テー ジ 
に 生成 され る 見 積 り 値 で す . 5 並列 の 色 空 間 変換 を 実装 す 


注 2: S5000 コ ア は 300MHz で 動作 する が , S5000 の ISEF は 100MHz で 動 
作 す る た め . 


リス ト 3 5 並列 色 空 間 変換 の た め の 拡張 命令 を 使っ た アプ リ ケ ー 
ショ ン ・ プ ログ ラム 


Yo1d rgqb2yoc_wrapper(g1gned char *RGB, sg1qned char 
*YCC) 
{ 

WR A, B: 

Ebot 6 本 0oV) 


For (n = 0: n < NUM: n++) { 
WRGET0TNTT(0, RGB) : 
WRPUTINTT(0, yoo) : 


For (1 = 0: 1 < NP/5: ユ ++) 


WRGET0OT(sA, 15) : < 
rgb2yoc5 (A, &B) : 5 並列 色 空間 変換 
WRPUTT(B, 15) 


WRPUTELUSH ( ) : 
) 15 バ イト 分 を スト ア 凶 


) 
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図 16 
レポ ー ト ・ フ ァイル 


実際 に ISEF 上 で 使用 され る リソー ス は , 


Final resource usage report に 示さ れる . 


る 場合 , 550 個 の AU, 2240 個 
られ た こと が わか り ま す . 


実際 に 


/ / Tota1 Number ofF oonF1qura1ong : 


TNSTRUCTTON=rgb2yoo5 : rgb2yoc5 Opcode: 0: 
: Yariab1e 
Yar1ab1e 'B' writen 上 O WRA on TSEF write por 0O at end of oyole 2 


Tnput 
OuDpu : 


ConfFiqurat1on rdb2yoo「, 


ューーー( ュ シフ ィ グレ ー シ ョ ン 数 


mp1emenE1ing 1mn8t 上 ruo 上 1on8 rdD2YCO5 : 


コン フィ グレ ーション 名 旧 


Assembp1y !se rgb2yoo5 AA:in, B:ou! 
!A' readl From WRA on TSEEF read port 1 at beginning of cyc1e 1 


Computat1ona] Resouroeg 


Arithmetio bitg 


Loqg1c btg 
Mux b1Eg 


Reg1gster bitg 
Bipe1ine bits 


見 積もり 値 較 


out of 4096 


/* ま 天 天天 天天 天天 天天 天天 天天 天天 天天 天天 天天 天天 天天 天天 天天 天天 大 天天 天天 天天 天天 天天 天天 天天 天天 天光 天天 天天 大 天 天天 天天 天天 天天 天天 天天 


Finma] reSourCe uSade reDor ヒ 


ConfFigurat1on rdDb2YCo : 


Tota1 AUS = 
Tota1 MUS = 


536 out of 4096 


ISEF の 実際 の 使 


2240 ou of 8192 


本 天 天天 天天 天天 天天 天天 天天 天天 天天 天天 天天 天天 天天 天天 湊 天 天天 天天 天 天天 天天 天天 天天 天天 天天 天 天天 光史 天天 丈 丈 丈 天天 丈 丈 天天 天天 天 / 


3 
3 
た 
* TSEEF can run a ヒ he required frequenoy . 
3 
\ 


の IMU を 使用 する と 見積 も 


こ ISEF 上 で 使用 され る リソー ス は , Final resource 


usage report に 示さ れ て いま す . 


| | 命令 キャ ッシュ 


Y M 
ーー 


し Ei 」 


W 
M | テ ヶ fyxa| | チタ fa0 2 た ll| 


| RW | 


Y 
W | 例外 処理 。 ラ イト ・ 2 


AR : 汎用 レジ スタ ・ フ ァイル 図 

FR : 浮動 小数 点 レ ジス タ ・ フ ァイル 鐘 
WR: ワイ ド ・ レ ジス タ ・ フ ァイル 図 
ER : 拡張 レジ スタ ・ フ ァイル 凶 


1: 命令 フェ ッ チ 図 

R: レジ スタ ・ フ ァイル の 読み 出し 図 
と 命令 デコ ー ド 較 

E: 実行 と MMU ア ドレ ス 変 換 較 

デー タ ・ すま せま 

レジ スタ ・ フ ァイル の 書き 込み 図 


図 17 Xtensa の パイ プラ イン 
Xtensa コ ア は 5 段 パ イプ ライ ン を 持つ . 
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@ バイ プラ イン 動作 の 解析 

Xtensa コ ア は 5 段 パ イプ ライ ン を 持ち ます . 拡張 命令 の 
パイ プラ イン は , Xtensa の パイ プラ イン を 図 17 の よう に 
拡張 し て いま す . また , マル チ サ イ クル 命令 を サポ ー ト し , 
最大 31 サイ クル の レイ テン シ ( Xtesna コ ア ・ クロック ) ま 
で 持つ こと が 可能 で す . 実行 ステ ー ジ は EU1^ EU27 ま で 
を サポ ー ト し まず 拡張 命令 で ご は 9 サイ クル 命令 まで を サポ 
3 

IDE に は , 絆 1 に , 静 的 に パイ プラ イン を 解析 
する 機能 が あり ます . デー タ 依存 に よる スト 一 ル の 発生 箇 
所 を 確認 し た り , 50252 
張 命 令 は , Xtensa コ ア の 動作 クロ ッ ク 300MHz に 合わ せ 
て 表示 され まず ISEF 側 で 2 サイ クル の 拡張 命令 は Xtensa 
側 で は 6 サイ クル 命令 ). 

S5000 は イン ター ロッ ク の アー キテ クチ ャ を 持っ て いま 
す . つま り , ある 命令 を 実行 する と き に 必要 な レジ スタ 値 
(AR, WR, ER) を その 前 の 命令 が 結果 と し て 出力 する 場 
合 , 命令 実行 の 際 に 有効 な 結果 が 得 ら れ て いな いと ハー ド 
ウェ ア が 自動 的 に スト ー ル を 引き 起こ し , 有効 な 値 を 待ち 
ます 。 

例え ば リス ト 3 内 側 の ルー ズ For(1 = 0: 1 < NP/ 
5: 1++) ) 内 に お いて , rgb2ycc5 か ら の 出力 B は , 10 サ 
イク ル の 間 WREUTT 命令 で 使用 で きま せん AX 図 18 参 照 ). 


図 18 
静 的 に パイ プラ イン 解析 
デー タ 依存 に よる スト 一 ル の 発生 箇所 を 確認 し たり, パ 


wraqeti wraU, 15 


FPGA 十 CPU で 
- ア クセ ラレー ショ >< 
ーー 


イプ ライ ン の 動作 を 確認 で きる . 縦 軸 は 実行 され た アセ 


| se_rgb2ycc5 wra0, ra0 | 


に BI 昌 


Wraputi wra0, 15 


ン ブ リ 命令 . 横 軸 は Xtensa。 ク ロッ ク . WRPUTI 命令 は 
se_rgb2ycc5 命 令 か ら の 出力 wra0 の 結果 を 待つ た め 10 


Pipeline Analyzer 
サイ クル を スト 一 ル す る . 


3 命令 を 13 サイ クル で 実生 =10 サ イク ル の スト ー ル ) 隊 


Instruction 0 5 10 15 20 

loopgtz a2, dO0015d4 ilRlElulw | | 

wragetOi wra0, 15 EMRIE6m5lsWl | 昌 | | 1 l | | 
図 19 se_rgb2ycc5 wra4, wra5 | iR lR | E | M Eu lEui llEUz |Eu3 llEut llEUs lEue lEUo | | 
ルー プ 展 開 実 装 後 の プロ wagswszi5 。 | | | [ililRlelwlwl | | | | | | | | 
ファ イル wraputi wra7, 15 | | | iglElwulw 上 | | 

se_rgb2ycc5 wra6, wra7 | | Ii LR |E | M IEur Eu lEuz llEus IEus llEus Eue Euo | 
1 回 の ルー プ 内 に 四 つ の se_ Wraputi wra1。 15 ] | | ilRlElMulw | | | | 
rgb2ycc5 命 令 を 実行 し , wragetOiwra4.15 。 | | | | _ | | PIERIElelIw | に に = に 
WRPUTI 命 令 に よる メモ リ ヘ へ se_rgb2ycc5 wra0, wral | | | | | | | | [iRILE IL Eur jlEUr ]IEuz ]IEu3 Eu4 llEus Eue Euo] オー 
の スト ア の タイ ミン グ を 遅 ら wspuiweas15 | | | | | Lleieiwjiwl | 」 ーー! 
せる こと で , WRPUTI 命令 の Wao9G Wo6.】5 | | | LR LE lm TLw | 
スト ー ル を な くす 。 例え ば 。 se_rgb2ycc5 wra2, wra3 | | | iR | E | M liEur lEui llEuz llEus liEU4 Eus Eue |Euo 

Wrapuki wra5, 15 | | IlR llElMulw | | 


三 つ 目 の アセ ン ブ リ 命令 se_ 
rgb2ycc5 の 結果 を スト ア す る 
WRPUTI 命令 は 13 行 目 で 実行 . 


Pipeline Analyzer 


図 20 
拡張 命令 実装 前 の プロ ファ イル 


12 命 令 を 13 サ イク ル で 実 室 =1 ス トー ル ) 


64000 画 素 の 色 空 間 変換 に 必要 と さ 


れ た 実行 サイ クル 数 は rgb2ycc と 時 


、 | Total Cycles | Tokal Instrs | Cals 


862MG6 WaB8PO:HCEICD8IBS の 63.920377 | 2240057| 2112000| 64000 35 | 6 | 0| 64000| 192000|rgb2ycc 

合計 3456826 サ イク ル . 34.720694 | 1216769| 960713| "1| 1216769| 5 1| 192402 4 | rgb2ycc_wrapper 
図 21 

拡張 命令 実装 後 の プ ロフ ァ 

イル 


% ぬ Time | TokalCycles | Total nstrs | Calls | Cyclesjcall | !$ Misses| D* Misses| Loads | Stores 


実装 し た 関数 rgb2ycc5 は , プロ 


ファ ル で は すでに 命令 と し て 誰 46.465831 41198 39407 
識 さ れ , プロ ファ イル に は 表示 23.188929 20S60 4511 | 
され な い . 64000 画 素 の 色 空 間 18.131577|  。 16076| 14897| 
変換 に 必要 と され た 実行 サイ ク ーー 3273| 25661 
ル 数 は 41198 サ イク ル 拡張 命令 2 は) 2291| 1062| 
1.251931 1110 293 


の 実装 前 と 比較 し て 約 84 倍 ). 


一 方 , 命令 間 で デー タ の 依存 関係 が な けれ ば , パイ プラ 
イン の スト 一 ル を 人 放 ける こと が で きま す . 図 19 の よう に 1 
回 の ルー プ で 四 つ の rgb2ycoc5 命令 を 実行 し , 結果 を スト 
ア す る ( WREUT 命令 の 実行 ) タ イミ ング を 遅らせ , パイ プ 
ライ ン の スト ー ル を 軽減 で きま す . これ を ルー プ 展 開 と 呼 
ます 人 


念 性 能 の 解析 
命令 セッ ト ・ シ ミュ レー タ を 使用 する 場合 は , 関数 ご と 
の プロ ファ イル を 生成 で きま す . これ を も と に し て 性 能 解 


Function 
41198 91 0| 12201 | 12000 rqb2ycc_wrapper 
20560 | 13 | 3| 3| 0 ResetH 
16076 | 9| 121| 3844| 0 main | 
3273 | 3| nl 0 | xthal_dcache_all_writeback | 
2281 | 8 70 | 12 | 263 _setup_page_tables 
1110 6n 20 66 63 | _vfprintfr 


析 を 行い ます . 図 20 は 拡張 命令 実装 前 の プロ ファ イル を 
表し ます . 図 21 は 拡張 命令 実装 後 の プ ロフ ァイル を 表し 
ます 。 

実 チ テッ プ を 使用 し た 場合 の プロ ファ イル ・ デ ー タ は 図 22 
の よう に な り , 処理 の 割合 の み が 表 示さ れ ま す . し か し な 
が ら , 実 チッ プ 上 で の 性 能 解析 は 必須 で す . そこ で Stretch 
BIOS に 組み 込ま れ て いる Performance Counter を 使用 し 
ます . これ は sx-perfcounth を イン クル ー ド し て 使用 する 


3: ルー プ 展 開 は デフ ォ ル ト で コン パイ ラ ・ オ プシ ョ ン と し て 実装 され て 
お り , 通常 は ルー プ 展 開 し た コー ド が 生成 され る . 


で ン 
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51.82 rgb2ycc_wrapper 
22.63 main 
22 4.38|_yfprintFr 
実 チッ プ に よる 1.82 lsx_dmac_get_chan 
1.82|S_sx_load_isef_async | 
プロ フ ァイル 1.46sx_mmdma_chan_init ー 
実 チ キッ プ で の プロ 1.46sx_dmac_init_chan ] SX_COU 
ファ イル は 全体 の 人 | 
問 1.09|sx_virt to_bus | | 
処理 に 対す る 各 関 1.09|sx_mmdma_memcpy_init | 
数 処理 の 割り 合い 1.09 init_isef | 
の み が 表 示さ れる . 1.09|_malocr 
リス ト 4 
実 チ テッ プ に よる 実行 サイ クル 8BXx perfF reset(8X COUNTER 0|8X_ COUNTER 1) : 


数 / プ ロフ ァイル 情報 の 取得 


実 チ テッ プ の 性 能 解析 は Stretch 
社 の 用 意 す る API を 用 いて 行え 


cyc1e beqg = gx get ocour () : 
る . rgb2ycc_wrapper 関 数 の 実 rgb2ycc wrapper (RGB, CC) : 
行 処理 サイ クル 数 / プ ロフ ァイル cycle end = sgx ge ヒ ocounrt () : 
情報 を 取得 . 8gx perf_ disable(SX _ COUNTER 0|SX COUNTER 1) := 


BSx perf read (SX COUNTER 0, 
SBx perf read (SX_ COUNTER 1, 


printf ("Cyc1e: を dNn", 
printE("SX COUNT TNSN ATL 
printE("SX_ COUNT STALLs ATL 


表 5 S5530 に よる 色 空 間 処理 の 性 能 比較 


サイ クル 数 
3456826 
41198 
3457160 
41393 


サイ クル /1 画 素 
54.01 
064 
54.02 
065 


API を 用 いて , 表 4 の イベ ント を 計測 する も の で す . た だ 
し , 同時 に 計測 で きる イベ ント は 四 つ ま で と な り ま す . 

一 方 , 実行 サイ クル 数 の 計測 は , フリ ー・ ラ ン ニ ング の 
タイ マ CCOUNT の 値 を 測定 する こと で 算出 で きま す . sx- 
timerh を イン クル ー ド し て 使用 する API で 計測 し ます . 実 
チッ プ の 性 能 解 析 の た め の コ ー ド を リス ト 4 に 示し ます . 

表 5 に rgb2ycc wrappeX NUM = 100, NP = 640) 
の 処理 サイ クル 数 を , 命令 セッ ト ・ シ ミュ レー タダ ISS) と 
写真 1 に 示す S5000 開 発 ボー ド で 計測 し た 結果 , お よび 1 
画素 を 処理 メモ リ の ロー ド / ス ト ア を 含む ) す る た め に 必 
要 な サイ クル 数 を まとめ まし た . 拡張 命令 を 追加 し た こと 
で 約 84 倍 の 性 能 向 上 が 見 られ まし た. 

ISS と S5000 と の サイ クル 数 の 違い は , ISS は プロ グラ ム 
を 内 部 SRAM と 同等 の アク セス 速度 で 実行 し て いる の に 対 
し て , S5000 は DDR メ モリ 上 で 実際 に 実行 し て いる こと に 
起因 し て いる と 考え られ ます . 
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SX_COUT STALLS AL スト ー ル の 合計 数 を 計測 


SX_COUT STALLS TCACHE 命令 キャ ッシュ ・ ミ ス に よる スト ー ル の 合計 数 


デー タ ・ キ ャ ッシュ ・ ミ ス に よる スト ー ル の 
合計 数 


SX COUT_STALLS DCACHE 


Tsgfr 命令 コン フィ グレ ーション に よる スト ー 


SR ル の 合計 数 


SEF ALT 


SX_COUT TNSN AL 命令 の 実行 数 


SX_COUT TNSN LOADSTORE | ロー ド / ス ト ア 命令 の 実行 数 


SBx perfF 1n1t(SX COUNTER 0,SX_ COUNT TNSN_ ATL) : 本 
sx perf init(SX COUNTER 1,8x CouNT STarrs arr),/ 計測 する イベ ント と カウ ンタ を 初期 化 較 


8Bx perf enab1e(SX_ COUNTER 0|8X_ COUNTER 1) : = 


ケー フリ ー: ラン ・ カウ ンタ の 値 の 読み 出し 較 


SX_COUT BRANCH TAKEN taken さ れ た 分 岐 命令 の 実行 数 


パフ ォ ー マ ンス ・ カ ウン タ を リセ ッ ト 


{イベ ント の カウ ント 開始 


カウ ント 終了 凶 


&oCoun 七 0 ) : 


gcoun1 ) : ) イベ ント の カウ ント 値 の 読み 出し 較 


(cyc1e_end-cyc1e beg) ) : 


= ddNn", Count0) : 
= 衝 dNn" , Coun1 ) : 


写真 1 


S5000 開発 ボー ド 
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